#coding:utf-8

#处理单个文件的数据
#ns 地点 LOC ,nr 人名 PER, nt 公司组织 ORG, v 关系 REL,attr 属性 VAL
def deal_file_data(path,output):
    fobj = open(path,'r')
    output_data = open(output,'w','utf-8')
    arr = fobj.readlines();
    persons,locs,orgs,rels,vals = [],[],[],[],[]
    for line in arr:
        if line == "\n":
            output_data.write("\n")
        else:
            char_tag_pair = line.strip().split('\t')
            print '当前词为：', char_tag_pair, ' 长度：', len(char_tag_pair)
            text = char_tag_pair[0]
            tag = char_tag_pair[2]
            if tag=="LOC_S":
                locs.append(text)
            if tag=="PER_S":
                persons.append(text)
            if tag=="ORG_S":
                orgs.append(text)
            if tag=="REL_S":
                rels.append(text)
            if tag=="VAL_S":
                vals.append(text)



#针对run_model之后的数据再处理入库
def store_data():
    pass

if __name__ == "__main__":
    store_data()


